An oft-cited open problem of federated learning is the existence of data heterogeneity at the clients. One pathway to understanding the drastic accuracy drop in federated learning is by scrutinizing the behavior of the clients' deep models on data with different levels of "difficulty", which has been left unaddressed. In this paper, we investigate a different and rarely studied dimension of FL: ordered learning. Specifically, we aim to investigate how ordered learning principles can contribute to alleviating the heterogeneity effects in FL. We present theoretical analysis and conduct extensive empirical studies on the efficacy of orderings spanning three kinds of learning: curriculum, anti-curriculum, and random curriculum. We find that curriculum learning largely alleviates non-IIDness. Interestingly, the more disparate the data distributions across clients the more they benefit from ordered learning. We provide analysis explaining this phenomenon, specifically indicating how curriculum training appears to make the objective landscape progressively less convex, suggesting fast converging iterations at the beginning of the training procedure. We derive quantitative results of convergence for both convex and nonconvex objectives by modeling the curriculum training on federated devices as local SGD with locally biased stochastic gradients. Also, inspired by ordered learning, we propose a novel client selection technique that benefits from the real-world disparity in the clients. Our proposed approach to client selection has a synergic effect when applied together with ordered learning in FL.
translated by 谷歌翻译
We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices.
translated by 谷歌翻译
在计算机视觉领域,异常检测最近引起了越来越多的关注,这可能是由于其广泛的应用程序从工业生产线上的产品故障检测到视频监视中即将发生的事件检测到在医疗扫描中发现病变。不管域如何,通常将异常检测构架为一级分类任务,其中仅在正常示例上进行学习。整个成功的异常检测方法的家庭基于学习重建掩盖的正常输入(例如贴片,未来帧等),并将重建误差的幅度作为异常水平的指标。与其他基于重建的方法不同,我们提出了一种新颖的自我监督蒙面的卷积变压器块(SSMCTB),该卷积变压器块(SSMCTB)包括基于重建的功能在核心架构层面上。拟议的自我监督块非常灵活,可以在神经网络的任何层上掩盖信息,并与广泛的神经体系结构兼容。在这项工作中,我们扩展了以前的自我监督预测性卷积专注块(SSPCAB),并具有3D掩盖的卷积层,以及用于频道注意的变压器。此外,我们表明我们的块适用于更广泛的任务,在医学图像和热视频中添加异常检测到基于RGB图像和监视视频的先前考虑的任务。我们通过将SSMCTB的普遍性和灵活性整合到多个最先进的神经模型中,以进行异常检测,从而带来了经验结果,可以证实对五个基准的绩效改进:MVTEC AD,BRATS,BRATS,Avenue,Shanghaitech和Thermal和Thermal和Thermal罕见事件。我们在https://github.com/ristea/ssmctb上发布代码和数据作为开源。
translated by 谷歌翻译
聚集的联合学习(FL)已显示通过将客户分组为群集,从而产生有希望的结果。这在单独的客户群在其本地数据的分布方面有显着差异的情况下特别有效。现有的集群FL算法实质上是在试图将客户群体组合在一起,以便同一集群中的客户可以利用彼此的数据来更好地执行联合学习。但是,先前的群集FL算法试图在培训期间间接学习这些分布相似性,这可能会很耗时,因为可能需要许多回合的联合学习,直到群集的形成稳定为止。在本文中,我们提出了一种新的联合学习方法,该方法直接旨在通过分析客户数据子空间之间的主要角度来有效地识别客户之间的分布相似性。每个客户端都以单一的方式在其本地数据上应用截断的奇异值分解(SVD)步骤,以得出一小部分主向量,该量提供了一个签名,可简洁地捕获基础分布的主要特征。提供了一组主要的主向量,以便服务器可以直接识别客户端之间的分布相似性以形成簇。这是通过比较这些主要向量跨越的客户数据子空间之间主要角度的相似性来实现的。该方法提供了一个简单而有效的集群FL框架,该框架解决了广泛的数据异质性问题,而不是标签偏斜的更简单的非iids形式。我们的聚类FL方法还可以为非凸目标目标提供融合保证。我们的代码可在https://github.com/mmorafah/pacfl上找到。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
对比自我监督学习(CSL)已设法匹配或超过图像和视频分类中监督学习的表现。但是,仍然未知两个学习范式引起的表示的性质是否相似。我们在对抗性鲁棒性的角度下对此进行了研究。我们对该问题的分析治疗揭示了CSL对监督学习的内在更高灵敏度。它将数据表示形式在CSL表示空间中的单位过球上的统一分布是这种现象的关键因素。我们确定这会增加模型对输入扰动的敏感性,而在培训数据中存在假阴性的情况下。我们的发现得到了对对抗性扰动和其他输入损坏的图像和视频分类的广泛实验的支持。在洞察力的基础上,我们制定了简单但有效地通过CSL培训改善模型鲁棒性的策略。我们证明,对抗攻击的CSL及其受监督的对手之间的性能差距最高可下降68%。最后,我们通过将我们的发现纳入对抗性的自我监督学习中,为强大的CSL范式做出了贡献。我们证明,在该域中的两种不同的最新方法中,平均增益约为5%。
translated by 谷歌翻译
最近在文献中引入了用于视频异常检测的自我监督的多任务学习(SSMTL)框架。由于其准确的结果,该方法吸引了许多研究人员的注意。在这项工作中,我们重新审视了自我监督的多任务学习框架,并提出了对原始方法的几个更新。首先,我们研究各种检测方法,例如基于使用光流或背景减法检测高运动区域,因为我们认为当前使用的预训练的Yolov3是次优的,例如从未检测到运动中的对象或来自未知类的对象。其次,我们通过引入多头自发项模块的启发,通过引入多头自我发项模块,使3D卷积骨干链现代化。因此,我们替代地引入了2D和3D卷积视觉变压器(CVT)块。第三,为了进一步改善模型,我们研究了其他自我监督的学习任务,例如通过知识蒸馏来预测细分图,解决拼图拼图,通过知识蒸馏估算身体的姿势,预测掩盖的区域(Inpaining)和对抗性学习具有伪异常。我们进行实验以评估引入变化的性能影响。在找到框架的更有希望的配置后,称为SSMTL ++ V1和SSMTL ++ V2后,我们将初步实验扩展到了更多数据集,表明我们的性能提高在所有数据集中都是一致的。在大多数情况下,我们在大道,上海the夫和Ubnormal上的结果将最新的表现提升到了新的水平。
translated by 谷歌翻译
跨视野地理位置化的现有工作基于将地面全景与空中图像相匹配的图像。在这项工作中,我们专注于地面视频,而不是图像,这些视频提供了对此任务很重要的其他上下文提示。没有针对此问题的现有数据集,因此我们提出了GAMA数据集,这是一个带有地面视频和相应空中图像的大型数据集。我们还提出了一种解决这个问题的新方法。在剪辑级,简短的视频剪辑与相应的空中图像匹配,后来用于获得长视频的视频级地理定位。此外,我们提出了一种分层方法,以进一步改善剪辑级地理定位。这是一个具有挑战性的数据集,未对齐和有限的视野,我们提出的方法的前1个召回率为19.4%和45.1% @1.0英里。代码和数据集可在以下链接中获得:https://github.com/svyas23/gama。
translated by 谷歌翻译
用于视觉语言表示学习的变压器已经引起了很多兴趣,并在视觉问题答案(VQA)和接地方面表现出了巨大的表现。但是,大多数显示出良好性能的系统在培训过程中仍然依赖于预训练的对象探测器,这将其适用性限制在可用于这些检测器的对象类中。为了减轻这种限制,以下论文着重于在变形金刚中的视觉问题答案的背景下进行弱监督的基础问题。该方法通过将每个视觉令牌分组在视觉编码器中,并使用语言自我发项层作为文本引导选择模块来利用胶囊,以在将它们转发到下一层之前掩盖它们。我们评估了针对挑战的GQA以及VQA帽数据集的VQA接地的方法。我们的实验表明:在从标准变压器体系结构中删除蒙版对象的信息的同时,胶囊的集成显着提高了此类系统的接地能力,并提供了与其他新的最先进的结果。在现场接近。
translated by 谷歌翻译
深度学习正在推动许多计算机视觉应用中的最新技术。但是,它依赖于大量注释的数据存储库,并且捕获现实世界数据的不受约束性质尚未解决。半监督学习(SSL)用大量未标记的数据来补充带注释的培训数据,以降低注释成本。标准SSL方法假设未标记的数据来自与注释数据相同的分布。最近,Orca [9]引入了一个更现实的SSL问题,称为开放世界SSL,假设未注释的数据可能包含来自未知类别的样本。这项工作提出了一种在开放世界中解决SSL的新方法,我们同时学习对已知和未知类别进行分类。在我们方法的核心方面,我们利用样本不确定性,并将有关类分布的先验知识纳入,以生成可靠的伪标记,以适用于已知和未知类别的未标记数据。我们广泛的实验在几个基准数据集上展示了我们的方法的有效性,在该数据集上,它在其中的七个不同数据集(包括CIFAR-100(17.6%)(17.6%),Imagenet-100(5.7%)(5.7%)和微小成像网(9.9%)。
translated by 谷歌翻译